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摘要 随 着 高 性 能 计算 系统 规模 的 不 断 扩大 ， 节 点 失效 愈加 频 发 。 传 统 的 容错 技术 大 都 基于 检查 点 


(checkpoint) 方式 。 但 是 ， 检 查 点 技术 的 开销 随 着 系统 规模 的 扩大 而 不 断 增加 ， 在 百 亿 亿 次 (Exaflops) 


规模 下 其 容错 效率 难以 满足 系统 需求 。 算 法 失效 恢复 技术 相 比 检查 点 方式 具有 更 高 的 效率 。 然 而 ， 该 技术 


依然 基于 停 等 模式 。 对 于 大 规模 系统 ， 停 等 模式 在 很 大 程度 上 会 影响 程序 的 并 行 效 率 。 本 文 提出 了 一 种 非 
停 等 的 算法 级 容错 策略 一 一 热 蔡 换 策 略 。 在 程序 运行 过 程 中 若 发 生 节 点 失效 ， 不 用 停 等 恢复 失效 节点 上 的 
数据 ， 而 用 元 余 节 点 蔡 换 失效 节点 ， 使 计算 能 继续 进行 。 最 终 的 正确 结果 可 以 通过 一 个 线性 变换 求 出 。 为 
了 论证 方案 的 有 效 性 , 我 们 结合 MPICH 的 容错 特性 实现 了 容错 的 High Performance Linpack (HPL)， 并 评估 
了 方案 的 性 能 。 实 验 结果 表明 ， 即 使 在 小 规模 下 ， 我 们 的 方案 的 性 能 也 明显 优 于 算法 失效 恢复 技术 。 


关键 词 高 性 能 计算 ; 检查 点 ， 算 法 容错 ;Exaflops 


1.1 容错 技术 研究 的 意义 


随 着 高 性 能 计算 机 系统 计算 能 力 的 不 断 增 加 , 系统 的 规模 也 随时 间 呈 指数 
新 的 超级 计算 机 排行 (Top500) 统计 数据 显示 ， 目 前 


e| 


上 升 趋势 。 最 


世界 上 最 快 的 超级 计算 机 含有 的 处 理 器 


核 数 已 达到 10 万 级 别 呈 。 按 照 当 前 的 技术 趋势 发 展 ， 下 一 代 王 级 计算 机 的 规模 将 突破 100 


万 个 核 站 。 在 构建 下 一 代 超级 计算 机 的 同时 ， 系 统 的 可 靠 性 问题 将 越 来 越 突出 


o 


一 方面 , 随 着 系统 规模 的 增 大 , 系统 的 平均 中 断 间隔 时 间 Cmean-time-to-interrupt, MTTD 


越 来 越 短 。 卡 内 基 梅 隆 大 学 的 吉普 森 (Garth Gibson) 等 人 基于 对 洛斯 阿拉 莫 


斯 国家 实验 室 


(Los Alamos National Laboratory) 十 年 内 超级 计算 机 失效 数据 的 分 析 ， 发 现 
统 的 出 错 频率 正比 于 其 中 包含 的 处 理 器 个 数 呈 T, anl 1 所 示 。 


高 时 间 


馈 级 计算 机 系 


平均 中 断 间 B 


卡 内 基 梅 隆 并 行 数字 实验 室 


图 1. 系统 的 平均 中 断 闻 隔 时 间 和 处 理 器 个 数 之 间 的 关系 一 


图 中 三 条 曲线 分 别 代表 每 个 插 板 上 处 理 器 核 数量 按照 18、24、30 个 月 翻 一 番 的 模型 增长 时 相应 的 不 同 


统计 预测 结果 (图 2 亦 是 如 此 ， 不 另行 注 明 ) 


男 一 方面 ， 高 性 能 应 用 在 数据 规模 、 计 算 复 杂 度 和 运行 时 间 上 依然 不 断 增长 。 对 于 很 多 


大 规模 科学 计算 来 说 , 高 性 能 计算 系统 的 平均 中 断 间隔 时 间 已 经 小 于 程序 的 执行 时 间 。 因 此 ， 
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必须 采用 高 效 的 容错 方式 ， 提 高 系统 的 可 靠 性 ， 以 满足 应 用 的 需要 。 
1.2 容错 技术 研究 现状 


传统 的 容错 技术 大 都 基于 检查 点 ， 即 周 
期 性 地 保存 系统 的 状态 ， 建 立 检查 点 并 写 入 
人 磁盘， 系统 如 果 出 错 即 回 滚 到 上 个 检查 点 ， 
恢复 后 重新 开始 计算 。 但 是 ， 随 着 高 性 能 计 
算 机 系统 的 计算 能 力 和 磁盘 的 读 写 能 力 之 间 
差距 的 不 断 增 大 ， 检 查 点 容错 方式 在 百 亿 亿 
次 (Exaflops) 规 模 下 容错 效率 难以 满足 要 求 。 
基于 计算 机 故障 数据 集中 (Computer Failure 
Data Repository，CEFDR)03 统 计数 据 的 分 析 ， VR 
eA malRMUTRHOReuRRgey B> IRE H Uto 
E, d EAGKEEAC V EOPUR ZU RENAR TRIP I, nl 2 所 示 。 


pu 系统 级 的 检查 点 方式 对 用 户 透明 ， 但 当 系统 规模 很 大 时 ， 带 来 的 开销 是 惊人 的 。 检 查 点 
: 容错 方式 的 主要 开销 在 于 : Q). 节点 失效 需 回 滚 ， 回 滚 期 间 所 作 的 运算 作废 ; (2). 需 要 周期 
性 地 向 磁盘 写 入 检查 点 ， 而 外 存 的 读 写 带宽 远 低 于 内 存 的 读 写 带宽 ，(3). 由 于 采用 停 等 
Cstop-and-wait) 的 容错 模式 ， 一 个 节点 失效 ， 全 系统 都 要 停 下 来 等 其 修复 。 


WATE (J. S. Plank) 等 人 提出 的 无 盘 检 查 点 (diskless checkpointing) ER, (EHA 
的 内 存 代 替 低 速 的 磁盘 来 存储 检查 点 ， 并 对 各 个 计算 节点 的 数据 进行 编码 , 存 入 额外 的 元 余 
节点 。 无 盘 检 查 点 技术 的 可 扩展 性 优 于 检查 点 方式 ， 但 仍然 需要 回 六 和 停 等 的 开销 。 算 法 失 
效 恢复 技术 CABET recovery). P> 259 则 更 进一步 ， 可 以 做 到 不 回 滚 。 尽 管 该 技术 对 应 用 程 
序 不 透明 且 不 具有 通用 性 ， 但 它 仍 可 覆 羡 较 广 的 应 用 面 ， 如 ScaLapack.^ '!. HPL, PCG 
求解 Vp PETSc 中 的 线性 方程 组 迭代 求解 法 [9 等。 息 法 失效 恢复 技术 最 大 的 优点 是 不 
需要 额外 的 时 间 保 存 检 查 点 。 见 余数 据 在 计算 过 程 中 被 同步 更 新 ， 因 此 出 错 也 不 需要 回 深 。 
v 此 外 ， 由 于 元 余数 据 在 内 存 中 ， 该 方案 不 需要 读 写 低速 外 存 。 实 验 表 明 ， 该 技术 的 性 能 要 优 
I T Hee c p BORD: RIJG BER 8 BOR UP, 


然而 ,算法 失效 恢复 技术 仍然 基于 停 等 的 容错 模式 ， 即 在 程序 执行 过 程 中 ， 即 使 只 有 
个 进程 失效 ， 所 有 运行 中 的 进程 都 要 停 下 来 等 等 失 效 进程 数据 的 恢复 。 根 据 阿 姆 达尔 
(Amdahl ) 定律 ， 程 序 的 加 速 比 受 限 于 程序 中 的 串 行 部 分 。 对 于 大 规模 系统 ， 停 等 模式 在 
很 大 程度 上 会 影响 程序 的 并 行 效 率 。 


研究 一 种 非 停 等 的 、 应 用 层 能 感知 失效 的 容错 策略 成 为 未 来 容错 技术 发 展 的 一 个 新 方 
向 。 它 所 面临 的 挑战 主要 有 : (1). 应 用 层 感 知 失 效 需 要 对 应 用 的 算法 有 较 深 的 理解 ， 对 容错 
技术 的 实施 造成 了 一 定 的 困难 ; (2). 如 何 设计 编码 模式 以 保证 编码 的 高 效 和 数值 稳定 性 也 是 
一 个 待 解决 的 问题 ; (3). 非 停 等 的 容错 模式 对 容错 系统 的 支持 提出 了 更 高 的 要 求 , 现 有 MPI 
实现 的 容错 特性 大 都 基于 检查 点 方式 ， 实 现 应 用 层 容 错 需 要 MPI 新 的 文 持 。 


1.3 本 文 的 主要 工作 和 贡献 


基于 对 算法 失效 恢复 技术 的 研究 , 本 文 提出 了 一 种 新 型 高 效 的 算法 级 容错 方案 一 一 算法 
失效 热 替 换 (ABFT hotreplacemenO 方案 。 当 程序 执行 过 程 中 发 生 节 点 失效 ， 该 方案 不 用 


应 用 利用 率 


l IBM 的 杰出 架构 设计 师 
”Message Passing Interface， 一 种 基于 消息 传递 的 并 行程 序 设计 标准 
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停 等 恢复 丢失 的 数据 ， 而 用 宛 余 数据 蔡 换 丢失 的 数据 ,使 计算 能 立刻 继续 进行 下 去 。 在 程序 

执行 的 最 后 ， 正 确 结 果 可 以 由 蔡 换 后 得 到 的 中 间 结 果 经 过 一 个 简单 的 线性 变换 求 出 。 


为 了 验证 方案 的 正确 性 ， 我 们 基于 该 方案 并 结合 MPICH2 新 的 容错 特性 ， 实 现 了 容错 
的 HPL3， 并 评估 了 该 方案 的 性 能 。 实 验 结果 显示 ， 即 使 在 小 规模 下 ， 我 们 的 方案 相对 算法 
失效 恢复 技术 方案 也 有 明显 的 性 能 优势 。 


1.4 本 文 的 组 织 结构 


本 文 共 分 六 章 : 第 一 章 介 绍 了 本 文 的 研究 意义 和 容错 技术 的 研究 现状 ; 第 二 章 综述 了 相 
关 工作 ， 阐 述 了 算法 失效 恢复 技术 ， 并 简要 介绍 了 MPICH2 对 算法 级 容错 的 支持 ， 第 三 章 
提出 了 非 停 等 的 算法 失效 热 蔡 换 方案 并 讨论 了 处 理 多 次 失效 的 情况 ; 第 四 章 详细 说 明了 算法 
失效 热 奉 换 方 案 的 实现 细节 ; 第 五 章 评估 了 算法 失效 热 蔡 换 方案 的 性 能 并 验证 了 方案 的 正确 
性 ， 第 六 章 对 下 一 步 工作 进行 展望 。 


2 相关 工作 


本 章 先 介绍 算法 容错 的 基本 思想 , 在 此 基础 上 阐述 了 算法 失效 恢复 技术 的 容错 策略 ,最 
后 讨论 了 实现 算法 级 容错 技术 需要 MPI 提供 哪些 支持 。 
2.1 算法 失效 恢复 技术 
算法 容错 (Algorithm Based Fault Tolerance, ABFT) "的 概念 由 黄 光 华 (音译 ，K.H. 
Huang ) 和 阿布 拉 罕 (J.A. Abraham) 于 1984 年 第 一 次 提出 。 当 时 是 应 用 在 大 规模 集成 电 
路 瞬 态 错误 的 检测 、 定 位 并 修正 等 。 算 法 容错 的 核心 思想 是 先 将 原始 数据 进行 编码 变换 ， 然 
后 重新 设计 算法 流程 使 得 元 余数 据 在 计算 过 程 中 被 同步 更 新 , 从 而 可 以 在 计算 中 检测 和 纠正 
错误 。 该 方案 并 不 是 通用 的 , 因为 并 不 是 所 有 的 应 用 都 能 使 得 见 余 数据 和 计算 数据 被 同步 更 
新 。 算 法 容错 技术 主要 是 针对 一 类 包含 特定 矩阵 运算 的 应 用 ， 如 甜 阵 加 法 、 乘 法 、 内 积 、 
LU 分 解 以 及 转 置 运算 等 。 


算法 失效 恢复 技术 B5 PUSSY SS CZ. Chen) 和 多 加 拉 (O. Dongarra) 等 在 算法 容错 
技术 基础 上 所 作 的 进一步 推进 ， 以 处 理 高 性 能 计算 应 用 中 的 节点 失效 问题 。 该 技术 将 计算 节 
点 上 的 数据 编码 〈 通 常 是 做 元 余 和 ) 存储 在 额外 的 宛 余 节 点 上 ， 并 设计 并 行 算 法 ， 使 得 元 余 
节点 和 计算 节点 上 的 数据 在 计算 过 程 中 同步 更 新 ， 从 而 实现 对 失效 节点 上 数据 的 恢复 。 


考虑 单 节 点 失效 的 情况 。 由 于 在 节点 失效 发 生 之 前 ， 我 们 并 不 知道 哪个 节点 将 会 失效 ， 
因此 一 套 容 错 方案 必须 能 提供 恢复 任意 一 个 节点 上 数据 的 机 制 。 假 定 有 个 计算 节点 。 每 个 
计算 节点 上 的 数据 为 Di， 元 余 节 点 上 的 数据 为 五 。 在 计算 过 程 中 ,各 节点 上 的 数据 满足 如 下 
关系 


D+D,+...+D,=E (1) 
如 果 节 点 i 失效 ， 则 i 上 的 数据 Di 可 由 下 式 恢复 
D;=E-(D+..+D;,+ D; +++ Dp) (2) 


然而 ， 在 实际 应 用 中 ， 这 种 元 余 和 关系 的 保持 并 不 是 固有 的 ， 而 是 需要 特定 的 设计 。 如 
何 设计 算法 使 得 见 余 和 关系 在 计算 过 程 中 可 以 保持 ， 也 是 研究 算法 容错 需要 解决 的 问题 。 


2.2 MPICH2 的 容错 特性 


3 High Performance Linpack， 高 性 能 Linpack 标准 测试 程序 ， 详 见 本 文 83.3.1 
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为 了 实现 算法 级 容错 技术 ，MPI 实现 必须 提供 一 套 机 制 , 使 用 户 能 有 效 地 参与 容错 。 本 


文 的 实现 使 用 MPICH2-trunk-r7834 软件 包 ， 它 的 主要 的 容错 特性 有 : 


1l. 节点 失效 不 会 导致 整个 程序 终止 。 这 一 点 通过 在 mpirun 命令 运 


-disable-auto-cleanup 选项 可 以 保证 。 


行程 序 时 加 入 


2. 算法 级 容错 方案 依赖 底层 对 失效 的 检测 。 因 此 ，MPI 实现 必须 能 够 提供 一 套 机 制 ， 


知 节 点 失效 信息 。 
3. 包含 失效 节点 的 通信 操作 不 会 挂 起 。 大 量 的 测试 表明 ，MPICH2 Gf 


使 得 进程 能 够 查询 哪些 节点 失效 。MPICH2 实现 对 MPI_COMM_WORLD 通信 子 新 增 
了 MPICH ATTR FAILED PROCESS 属性 。 进 程 可 以 通过 查询 该 属性 的 值 ， 来 获 


EB 做 到 这 一 点 。 


4. 受 失效 节点 影响 的 通信 操作 会 返回 错误 码 ,主要 用 于 决定 消息 是 否 需 要 重 发 和 重 接 
收 。 需 要 说 明 的 是 ， 为 了 降低 无 失效 情况 下 集合 操作 的 开销 ，MPICH2 降低 了 对 集 


合 通信 的 限制 。 比 如 包含 失效 进程 的 barrier (栅栏 操作 并 不 能 保证 所 有 进程 
都 能 返回 错误 码 ; 包含 失效 进程 的 bcast (广播 ) 操作 也 不 能 保证 所 有 进程 都 正确 


地 收 到 了 消息 。 


需要 说 明 的 是 , MPICH2-trunk-17834 不 支持 在 节点 失效 的 情况 下 动态 调整 通信 子 ， 


— 


日 是 


实现 。 我 们 将 在 第 四 章 中 涉及 这 个 问题 。 


3 ”方案 设计 


最 后 针对 HPL 做 了 相应 的 容错 设计 。 
3.1 热 替 换 策略 


Di 和 宛 余 节点 上 的 数据 五 满足 如 下 关系 
D+D,+:…+D,=E 


旦 节点 i 失效 ， 我 们 不 是 让 所 有 “活着 ”的 进程 停 下 来 等 待 失效 进程 


最 新 版 本 的 MPICH2-1.4 可 以 做 到 这 一 点 。 在 本 文 的 实现 中 ,通信 子 的 调整 需要 在 应 用 层 上 


本 章 提 出 了 一 种 新 型 高 效 的 算法 级 容错 技术 ， 控 讨 了 一 次 失效 和 多 次 失效 的 处 理 方案 ， 


为 简单 起 见 ， 这 里 先 考 虑 一 次 失效 的 情况 。 假 定 在 计算 过 程 中 ， 计 算 节 点 i 上 的 数据 


(3) 
上 数据 的 恢复 ， 


而 是 用 宛 余 节 点 蔡 换 失效 节点 ， 使 计算 继续 进行 下 去 。 
从 全 局 的 角度 看 ， 发 生 失 效 前 ， 个 计算 节点 上 的 数据 为 
D-(D,-,D, Di,DPD，) 
替换 后 变 为 
D' -(D,,--., D, ,E,D;,,--D,) 
令 D'=DxT， 则 了 可 以 表示 成 一 个 nXn 的 矩阵 ， 如 下 所 示 : 
1 1 


1 1 
其 中 ， 对 角 线 和 第 i 列 省 略 的 元 素 为 1， 其 余 为 0。 


(4) 


(5) 


(6) 


从 (6) UAH, TÆ AIETE. AVES D 的 所 有 操作 均 是 线性 变换 (如 
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和 矩阵 的 LU 分 解 等 ;， 则 D'= DxT 的 关系 可 以 一 直 保 持 。 在 运算 的 最 后 ， 基 于 原始 数据 D 


的 正确 结果 可 以 由 一 个 基于 D' 的 中 间 解 求 出 。 这 个 过 程 实 际 上 是 一 个 基于 了 的 线性 变换 。 


然而 ，D' = DxT 的 这 种 编码 关系 并 不 能 在 所 有 高 性 能 计算 应 用 中 都 保持 ， 但 在 一 类 包 


含 线性 变换 的 矩阵 运算 中 ， 如 矩阵 的 加 法 、 乘 法 、LU 分 解 、 内 积 和 转 置 等 ， 这 种 关系 可 以 
保持 。 


3.2 多 次 失效 处 理 


对 于 多 次 失效 的 情况 ,一 种 方案 是 使 用 多 级 见 余 。 但 对 于 下 一 代 高 性 能 系统 来 说 ， 该 方 


案 并 不 能 有 效 地 解决 这 个 问题 ， 因 为 元 余 总 有 耗 尽 的 时 候 。 


un 


另 一 个 新 的 方案 是 通过 后 台 加 速 重建 见 余 和 ,， 即 对 替换 后 的 数据 进行 重新 编码 ,保存 在 


新 的 见 余 节 点 上 。 重 建 见 余 和 涉及 大 量 的 通信 操作 ,并 且 需 要 计算 节点 参与 。 为 此 我 们 提出 


了 


ua 


“后 台 加 速 重建 ”就 是 使 计算 节点 尽早 地 从 重建 见 余 的 工作 中 “解放 ”出 来 ,通过 增加 


节点 或 网 络 在 后 台 加 速 重建 见 余 ， 并 使 见 余 节 点 能 尽快 “ 追 上 ”计算 节点 。 而 正确 结果 可 以 


通过 增加 若干 次 热 奉 换 后 计算 得 到 中 间 结 果 ， 再 多 次 迭代 变换 而 得 到 。 


3.3 针对 HPL 的 容错 设计 


3.3.1 HPL 概述 


图 3. HPL 计算 流程 示意 图 


Each process generates its local random matrix A 
for k 20, 1, n 
calculate AP = IH xU® and AP = IH xu, 
broadcast I4 , I% and pivoting information right; 


perform row swaps and calculate UP = I x AD^; 


update the trailing sub-matrix AÑ? = A® — IY x u$? ; 


solve Ux = Lb to obtain x; 


图 4. HPL 程序 的 伪 代 码 


HPL 是 TOP500 超级 计算 机 排名 所 用 的 基准 测试 程序 。 它 的 主要 算法 是 用 列 主 元 高 斯 消 


元 法 (Gaussian Elimination with Partial Pivoting ) 求 解 线性 方程 组 Ax=b。 它 首先 计算 nX (n*1) 
阶 系数 矩阵 [办 的 LU 分 解 ， 得 到 [Alb] = [LL,U] Lb]. 然后 解 方 程 组 Ux =L b RfE x, HP 
U ;é E—fü^BEE, LÆ RZA, 见 图 3. 图 4 为 使 用 LU 分 解 算 法 时 HPL 程序 的 伪 代 码 。 
更 多 信息 ， 请 参见 [6]。 


3.3.2 容错 设计 
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一 种 新 型 高 效 的 算法 级 容错 技术 及 实现 


下 面 先 考 虑 一 次 节点 失效 的 情况 。 如 83.3.1 所 述 ，HPL 是 用 列 主 元 高 斯 消 元 法 求解 线性 


Ax-b (7) 


假定 进程 Pi 在 程序 运行 中 失效 ， 则 使 用 匈 余数 据 准 换 失效 数据 后 ， 线 性 方程 组 变 成 


A'y=b (8) 
在 程序 执行 的 最 后 ， 得 到 中 间 解 y。 由 于 列 主 元 高 斯 消去 法 只 涉及 线性 变换 ， 因 此 


A'-AxT (9) 
的 关系 在 程序 执行 过 程 中 可 以 一 直 保持 。 
联 立 CM (8) 和 (9)， 解 x 可 以 由 下 式 求 出 
xzTxy (10) 
假定 变换 矩阵 开具 有 如 C60 所 示 的 形式 ， 则 将 《〈6) RA ao 可 得 


Xi = 只 十 yj 1<Jj#i<n 
Xi — yi 


(11) 


上 式 可 以 看 出 ， 由 y 计算 x 的 代价 为 O(n)， 相 比 算法 失效 恢复 技术 处 理 单 节点 失效 
的 开销 O(n”) 大 大 降低 。 


对 于 多 次 失效 的 情况 ， 可 以 通过 友 代 | 
失效 的 变换 矩阵 为 五 ， 则 
X=TxTx:……T xy (12) 


在 具体 实现 中 ， 由 于 HPL 使 用 二 维 的 块 循环 (block-cydlic〉 数 据 分 布 ， 和 矩阵 的 编码 和 
变换 矩阵 会 更 复杂 ， 我 们 将 在 下 一 章 涉 及 这 些 内 容 。 


3.4 优点 


和 算法 失效 恢复 技术 相 比 ,我 们 的 方案 有 如 下 优点 : 首先 ， 热 蔡 换 策略 使 得 故障 瞬时 切 
换 ， 不 需要 停 等 恢复 失效 节点 ， 其 次 ， 由 于 变换 矩阵 T 是 一 个 非常 稀 芷 的 矩阵 ， 由 中 间 绪 
果 计 算 最 终 解 的 开销 很 小 , 远 低 于 算法 失效 恢复 技术 恢复 失效 节点 上 数据 的 开销 。 正 是 基于 
以 上 两 点 ， 算 法 失效 热 蔡 换 方案 在 理论 上 性 能 要 优 于 算法 失效 恢复 技术 。 为 了 验证 方案 的 正 
确 性 ， 下 一 半 将 阐述 把 算法 失效 热 蔡 换 应 用 到 HPL 中 的 实现 细节 。 


4 ”方案 实现 

目前 ， 我 们 已 实现 使 用 算法 失效 热 蔡 换 方案 处 理 单 节点 失效 的 容错 的 HPL。 以 下 实现 
均 是 针对 单 节点 失效 的 情况 。 如 83.3.1 所 述 ，HPL 的 主体 部 分 是 一 系列 消 元 、 行 广播 和 更 新 
阶段 的 合 加 。 它 们 占据 了 HPL 总 执行 时 间 的 绝 大 部 分 。 我 们 的 工作 也 是 针对 这 段 时 间 的 容 
普 ， 因 此 如 果 节 点 失效 发 生 在 这 段 时 间 之 外 ，HPL 的 所 有 进程 都 会 终止 


4.1 矩阵 编码 


和 矩阵 的 编码 使 用 了 和 引文 [4] 类 似 的 方案 。 在 HPL P, BENERE A 按照 块 循环 模式 分 布 
在 一 个 二 维 PXQ 的 进程 网 格 上 。 为 了 处 理 单 节 点 失效 , 我 们 新 增 了 P 个 进程 。 将 它们 和 原 


间 解 y RKE x AE n 次 失效 的 情况 ， 第 i 次 


48 


第 9 卷 第 6 


Information Technology Letter 


来 的 进程 一 起 组 成 一 个 新 的 (P+1) X 


Q IEE. JURKI P ARE 


星 分 布 在 


新 


网 格 的 第 QH 列 上 ， 存 储 前 Q 列 进 


程 数据 的 编码 。 
列 进程 的 


编码 信息 可 以 出 
局 部 数据 相 加 得 到 。 多 


二 维 进程 网 格 及 编码 数据 的 分 布 。 
进程 网 


5(a) 所 示 P-2. Q-2 的 二 维 


前 Q 


5 为 
如 


格 加 入 元 余 进 程 后 ,组 成 如 医 
示 的 新 的 进程 网 格 。 


5(b) 所 


在 这 种 编码 模式 下 , 对 矩阵 U If] 


“ 行 和 ”关系 可 以 在 计算 过 程 中 保 
持 ， 即 在 每 次 更 新 阶段 完成 后 保 
pm, 


4.2 失效 检测 和 热 蔡 换 


Multiply) 在 异 构 系统 上 的 整体 性 角 
此 ， 在 失效 发 生前 ， 我 们 不 知道 何 时 会 发 生 失 效 、 
(在 每 个 阶段 之 后 ) 查 询 MPI COMM WORLD 的 MPICH_ATTR_FAILED_PROCESSES 得 到 。 


首先 , 我 们 给 出 优化 后 双 精 度 通 月 


信息 技术 快报 


aae unen 
LPs | P« [Ps | Ps | Ps Ps] 
(d) 


Vol.9 No.6 

Nov. 2011 
[Po | P: |P2| [P| Pa| 
PfP 


Peele: 
LPs Ps] Pa| P4) Ps Ps. 
(e) 


图 5. 二 维 进 程 网 格 及 编码 矩阵 的 分 布 。 
图 中 : (a) 原始 的 进程 网 格 ; (b) 包含 宛 余 进程 的 网 格 ; (c) 
P3 失效 被 替换 后 重组 的 进程 网 格 (d) 编码 和 矩阵 的 全 局 视图 ; 


(e) 编码 矩阵 的 视图 


操作 ， 以 保证 查询 结果 的 一 致 性 。 
如 果 在 某 一 个 阶段 后 发 现 有 


口 使 用 算法 失效 热 蔡 换 方案 处 理 失 效 , B 
以 图 5() 的 进程 网 格 为 例 ， 


下 去 。 


的 热 蔡 换 并 不 是 物理 


于 不 同 的 进程 完成 同一 阶段 的 时 间 不 一 致 ， 


E。 性 能 对 比 的 基 疹 


明和 矩阵 乘法 CDGEMM, Double-precision General Matrix 


程序 对 失效 的 发 生 是 无 法 预测 的 ， 因 
哪个 节点 将 失效 。 


这 些 信息 可 以 通过 定期 


个 进程 失效 了 ， 则 所 有 “ 活 
1 使 用 宛 余 进 程 列 替 
假设 进程 Ps 失效 ， 
上 的 替换 , 而 


要 说 明 的 是 ， 热 蔡 换 只 能 


后， 才能 进行 热 蔡 换 。 
为 


我 们 在 应 用 层 为 每 一 个 进程 指定 一 个 虚拟 的 序 。 


写 了 两 个 宏 , 根据 处 到 


ix H 
变量 实现 的 。 它 不 包含 任何 数据 通 
需 RA 


信 ， 


因此 可 以 迅 ; 


因此 在 查询 之 月 


则 热 蔡 换 后 


if 需要 执行 一 个 栅栏 Cbarrier) 


着 ”的 进程 进入 一 个 统一 的 入 
换 失效 进程 列 , 使 计算 继续 进行 
时 网 格 如 图 5(@O 所 示 。 


H 后 进程 


是 通过 交换 进程 网 格 相关 的 数据 结构 中 某 些 成 员 
速 地 完成 。 
E 在 U 的“ 行 和 ”关系 保持 的 前 提 下 ， 即 在 更 新 阶段 完 
成 后 。 如 果 在 某 个 消 元 阶段 后 发 现 进程 失效 ， 则 剩余 “活着 ”的 进程 需要 完成 行 ) 
x 


播 和 更 新 


一 个 问题 是 如 何 更 新 热 蔡 换 后 的 通信 子 状态 。 通 信子 是 用 来 表示 
于 MPICH2 暂时 不 能 动态 地 调整 通信 子 ， 如 加 入 或 移 区 


组 “活着 ”的 进程 。 


祭 某 些 进程 等 。 为 了 解决 这 个 问题 ， 


进程 之 间 


] 使 用 虚拟 序 进行 通信 。 


为 此 ,我们 


机 网 格 的 状态 信息 实现 虚拟 序 和 进程 在 MPI_COMM_WORLD 中 的 序 之 


间 的 映射 。 
4.3 后 台 恢 复 

可 以 发 现 ， 热 蔡 换 之 后 ， 在 最 后 一 块 尾随 矩阵 更 新 完成 后 得 到 的 器 不 再 是 上 三 角 和 矩阵 。 
这 为 我 们 计算 Uy=L b 求解 y 带 来 困难 。 一 个 解决 办 法 是 ， 对 于 已 经 分 解 过 的 数据 ， 我 们 不 
用 宛 余 数据 蔡 换 它 ， 而 是 将 它 恢复 在 相应 的 兄 余 进程 上 。 这 样 做 的 另 一 个 好 处 是 ， 这 些 数 据 
不 是 立即 要 用 的 ， 而 是 在 最 后 的 回 代 环节 才 会 用 到 ， 因 此 这 些 数据 的 恢复 可 以 在 后 台 进 行 。 


我 们 使 用 非 
来 。 对 于 恢复 数据 量 比较 大 


意 的 是 ， 随 着 计 
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阻塞 的 点 对 点 通信 ， 将 恢复 所 需 的 通信 部 分 和 随后 更 新 阶段 的 计算 部 分 重 爱 起 
的 情况 ,我 们 可 能 需要 将 后 台 恢 复 的 数据 分 成 若干 部 分 。 需 要 注 
算 的 进行 ， 需 要 更 新 的 数据 量 在 不 断 减 少 ， 


从 而 每 次 划分 出 的 通信 数据 量 也 


一 种 新 型 高 效 的 算法 级 容错 技术 及 实现 


应 越 来 越 少 。 
4.4 消息 的 故障 处 理 


上 述 方 法 足以 处 理 消 元 和 更 新 阶段 发 生 节点 失效 的 情况 。 对 于 行 广 播 阶段 , 我 们 需要 特 
殊 的 处 理 。HPL 提供 的 6 种 行 广播 方式 都 是 基于 消息 转发 (message forwarding) 的 。 如 果 
在 广播 中 有 一 个 进程 失效 ， 则 会 导致 那些 不 和 它 直 接 通 信 的 进程 挂 起 。 假 如 进程 Pi 转发 由 
进程 Po 发 送 来 的 消息 给 进程 Pp,，Po 失效 了 。P1 可 以 通过 MPI Recv 的 返回 错误 码 获知 Po 
已 失效 ， 但 P, 却 无 法 获知 该 信息 ， 因 为 它 的 上 一 级 节点 Pi 仍 “ 活 着 ”。 因 此 ， 对 于 广播 过 
程 中 的 进程 失效 ， 我 们 需要 一 套 健 壮 的 消息 广播 机 制 。 它 应 满足 如 下 两 个 条 件 : 

1. 节点 失效 不 会 引起 参与 广播 的 任何 节点 挂 起 ; 

2. 要 么 所 有 节点 都 成 功 接收 到 消息 ， 要 么 都 返回 出 错 信号 error. 


本 节 我 们 针对 HPL 一 种 常用 的 广播 方式 
increasing-2-ring-modified(2rinM)， 和 定制 “ 健 (0) 0502305 2) (5) (6) (7) 
9s RU 图 6。 2rinM 方式 下 消息 传递 路 径 
, 2rinM 方式 下 消息 传递 的 路 径 如 图 6 所 示 。 即 首先 由 进程 0 传 给 进程 1, 剩 下 的 Q-1 进 
QN 程 被 分 成 两 组 ， 进程 2~(Q+1)/2-1 为 一 组 ， 进 程 (Q+1)/2~(Q-1) 为 男 一 组 。 接 着 以 进程 2> 和 进 
CN 程 (Q+1)/2 为 源 节点 顺 次 传递 消息 。 


按照 消息 传输 的 时 间 先 后 关系 ,将 图 6 Pet 
中 的 消息 传递 表示 成 树 状 如 图 7 所 示 。 我 t= 
们 为 每 个 非 根 节点 指定 一 个 父亲 节点 。 父 t=2 
m 节点 的 指定 需要 满足 两 个 条 件 ，(1). 父 节 - 
N 点 的 消息 传递 先 于 子 节点 ; (2)， 父 子 节点 E 
的 消息 传递 没有 直接 的 依赖 关系 。 父 子 节 134 
点 每 次 退出 MPI_Recv 后 握手 ， 以 决定 是 t=5 
耕 重 发 和 重 接收 消息 。 即 每 一 个 非 根 节点 t-6 

c. 将 MPI Recv 的 返回 码 发 送 给 它 的 父 节 虚线 表示 父子 关系 


点 。 如 果 MPI_Recyv 返回 出 错 信息 ， 它 还 i 
oO 项 等 竺 大生 的 消息 ， 允 于 个 入。 图 7 DIM 方式 下 的 消息 全 关 
节点 来 说 ， 它 接收 子 节点 的 返回 码 ， 并 判定 是 否 需 要 向 子 节点 重 发 消息 。 以 图 7 为 例 ,我 们 
按 图 中 所 示 的 方式 指定 父 节 点 ,图 中 的 虚线 由 子 节点 指向 相应 的 父 节 点 。 按 照 这 种 方法 ， d 
们 可 以 保证 对 单 节点 失效 而 言 ， 任 何 一 个 非 根 节点 的 失效 都 不 影响 消息 成 功 的 传递 
日 如 果 是 根 节点 0 在 第 一 条 消息 传 条 成 功 之 前 就 失效 了 呢 ? 如 此 , 则 所 有 不 直接 接收 0 
的 消息 的 节点 都 会 挂 起 .为 了 解决 这 个 问题 ,我 们 将 第 一 条 消息 的 传输 从 行 广播 中 分 离开 来 ， 
仅 当 第 一 条 消息 传输 成 功 后 ， 才 使 用 上 述 机 制 。 


5 方案 验证 


本 章 我 们 通过 实验 对 算法 失效 热 蔡 换 方案 的 性 能 和 舍 入 误差 进行 了 评 佑 。 针 对 如 下 问 
题 ， 进 行 了 三 组 实验 。 

1l. 算法 失效 热 替 换 方案 性 能 如 何 ? 

2. 算法 失效 热 奉 换 方案 对 计算 精度 的 影响 如 何 ? 

3. 失效 时 刻 对 性 能 有 什么 影响 ? 
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前 两 组 实验 在 曙光 5000A 平台 上 开展 ， 共 使 用 16 个 节点 。 每 个 节点 包含 4 个 quad-core 
2.2GHz AMD Opteron 处 理 器 ， 共 享 64GB 内 存 。 节 点 之 间 由 干 光 以 太 网 相连 。 第 三 组 实验 
在 8 个 刀片 组 成 的 “ 超 龙 ”平台 上 开展 。 每 个 刀片 包含 10 个 Intel Xeon. X5650 处 理 器 ， 共 
计 960 个 核 。 同 一 个 刀片 内 的 节点 由 Infiniband 相连 ， 而 两 个 刀片 之 间 由 一 根 Infiniband 相 
连 。 这 两 个 平台 上 的 节点 都 运行 Linux 操作 系统 。 实 验 中 使 用 的 MPICH2 软件 包 是 
MPICH2-trunk-r7834。 所 有 的 计时 是 通过 调用 MPI wtime 函数 统计 的 。 


5.1 算法 级 容错 方案 性 能 的 比较 


表 1. D5000A 平台 上 的 实验 配置 表 2. HPL 的 执行 时 间 
每 个 节点 上 

矩阵 阶 数 节点 数 Pes PXQ HERNA 无 失效 WEH WE 

的 进程 数 

10,000 1 6 6X1 10,000 | 577.74 591.61 602.73 
20,000 1 16 4X4 20,000 1608.15 1677.14 1723.37 
30,000 2 16 4X8 30,000 2601.03 2791.12 2821.43 
40,000 4 16 16X2 40,000 3150.11 3358.38 3497.08 
50,0000 12 16 16X12 50,000 — 3433.09 347926 3577.77 
60,000 16 16 16X16 60,000 — 4708.54 4722.44 4858.23 


第 一 组 实验 是 用 来 比较 两 种 不 同 
的 算法 级 容错 方案 的 性 能 。 我 们 将 算法 
失效 恢复 技术 和 算法 失效 热 奉 换 方案 
分 别 集成 到 HPL 中 去 处 理 单 节点 失 
效 。 节 点 失效 是 通过 强行 终止 一 个 进程 
来 模拟 的 。 
在 本 组 实验 ! 


L—3 Hd 


随机 矩阵 A 的 阶 


数 及 计算 节点 的 使 用 情况 见 表 1。 年 阵 xL LL HE LEL LH. <， 
的 阶 数 为 10* 级。 使 用 算法 失效 恢复 技 随机 和 矩阵 阶 数 


术 和 算法 失效 热 替 换 方 案 处 理 单 节点 
失效 和 无 失效 情况 下 HPL 的 执行 时 — 

8， 不 同 算法 级 容错 方案 的 开销 
M, inde 2 所 示 。 两 种 方案 处 理 单 节点 ee 
失效 相对 于 无 失效 情况 下 的 开销 如 图 8 所 示 。 从 表 2 可 看 出 ， 处 理 单 节点 失效 ， 算 法 失效 
从 换 方案 与 算法 失效 恢复 技术 方案 相 比 ，HPL 的 总 执行 时 间 减 少 了 10-200 秒 。 这 部 分 时 间 
相当 无 失效 情况 下 HPL 总 执行 时 间 的 196596. 两 种 方案 下 的 开销 除了 会 随 单个 进程 分 配 到 
的 数据 量 的 多 少 而 变化 ， 还 会 受 进 程 和 处 理 器 核 之 问 的 映射 关系 影响 ， 
5.2 算法 级 容错 方案 舍 入 误差 的 比较 
算法 级 容错 方式 通过 对 浮 点 数 进行 算术 编码 构造 元 余数 据 ,引入 了 一 定 的 合 入 误差 。 此 
外 ,算法 失效 热 答 换 使 用 元 余数 据 谷 换 失 效 数据 , 涉及 到 年 阵 变换 ,进一步 加 剧 了 合 入 误差。 
第 二 组 实验 正 是 为 了 衡量 该 方案 带 来 的 合 入 误差 问题 。 舍 入 误 闫 通过 检查 HPL 误 关 检验 结 
果 得 到 ， 即 〈 其 中 N 是 焦 阵 维 数 ，s 是 机 器 精度 ): 
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一 种 新 型 高 效 的 算法 级 容错 技术 及 实现 
jax -b|. (13) 
elal, xix] + Ibl.) w 
本 组 实验 使 用 的 数据 规模 和 节点 信息 同 
第 一 组 实验 相同 , 见 表 1。 图 9 为 使 用 算法 失 
效 热 蔡 换 和 算法 失效 恢复 技术 处 理 单 节点 失 —— 
效 以 及 无 失效 情况 下 的 HPL 误差 检验 结果 。 随机 矩阵 4 的 阶 数 (104) 
可 以 看 出 ， 算 法 失效 恢复 技术 方案 引入 的 合 NAR 
9. 不 同 容错 THIRE EEX 
NAB TIRRAARRgA 9 HISRUDAGTISIRUEHCRL 
误差 大 致 是 无 失效 情况 下 的 2 fis. 
5.3 不 同 失效 时 刻 对 热 蔡 换 方案 性 能 的 影响 
第 三 组 实验 是 为 了 评估 失效 时 刻 ois 
(timing) 对 算法 失效 热 蔡 换 方案 性 能 的 影 EL 
响 。 本 组 实验 是 在 “ 超 龙 1 号 ”平台 上 进行 g 
的 。 我 们 使 用 了 其 中 的 75 个 节点 ， 共 计 900 ao 
个 核 。 我 们 在 每 个 核 上 启动 一 个 进程 ， 并 把 ”让 2 
个 进程 组 成 一 个 30590 PIN 本 组 28 500 1000 1500 2000 2500 
实验 中 和 玫 阵 阶 数 为 20,000， 失 效 时 刻 的 控制 失效 时 刻 “〈 秒 ) 
h Jsl 函数 实现 。 e 
DN dp 图 10。 失效 时 刻 对 性 能 的 影响 
实验 结果 如 图 10 所 示 。 可 以 看 出 ,在 计算 开始 1,000 s 后 失效 ，HPL 的 总 执行 时 间 急剧 
上 升 。 这 是 由 于 随 着 计算 的 进行 , 需要 后 台 恢复 的 数据 量 也 在 增加 。 当 数据 量 增加 到 一 定 程 
Rt, 以 致 不 能 完全 被 随后 的 更 新 阶段 午 芝 起 来 时 ， 就 会 带 来 额外 的 开销 。 不 过 , 从 理论 上 讲 ， 


算法 失效 热 替 换 方 案 下 带 来 的 最 大 开销 也 不 会 超过 算法 失效 恢复 技术 方案 。 
6 ”工作 展望 

下 一 步 工 作 有 三 个 可 能 的 方向 : 6 

第 一 个 方向 是 设计 后 台 加 速 重 建 元 余 和 的 2 ， | 
方案 ， 以 处 理 多 次 节点 失效 的 情况 。 该 方案 最 大 RE | 
的 难点 在 于 开销 问题 。 重 建 元 余 和 涉及 大 量 的 通 imet 
信 ， 且 需要 计算 节点 参与 。 因 此 我 们 需要 设计 高 党 1 
效 的 方案 使 得 计算 节点 能 尽快 地 从 重建 元 余 和 ok : T—ÉBÁ— 
的 工作 中 “解放 ”出 来 ， 并 使 元 余 节点 能 尽快 地 失效 数目 
“ 追 上 ”计算 节点 。 另 一 个 问题 是 热 替 换 策略 带 : 

IN - ud 11. 舍 入 误差 与 失效 次 数 的 关系 

来 的 合 入 误差 问题 。 图 11 显示 了 售 入 误差 随 类 “图 4b 会 八 误差 5 和 仇 次 数 的 关系 
效 次 数 变化 的 情况 。 实 验 表 明 ， 当 失效 次 数 超过 10 次 时 ， 计 算 结果 往往 通 不 过 HPL 的 误差 
检验 。 选 择 更 具 数 值 稳定 性 的 编码 方案 或 者 通过 经 验 值 校正 最 终结 果 可 能 成 为 我 们 以 后 的 工 
作 之 一 。 此 外 ， 多 次 失效 的 实现 ， 除 了 在 应 用 层 做 适当 的 改动 外 ， 还 依赖 MPI 实现 新 的 支 


持 ， 如 动态 地 调整 通信 子 等 。 


将 方案 应 有 
向 。 此 外 ， 将 热 替 换 策略 扩展 到 


多 的 高 性 能 计算 应 月 


日 到 更 大 规模 的 超级 计算 机 上 ， 实 现 更 完备 的 失效 处 到 


x 


风力 


是 我 们 第 二 个 在 
FPF 也 是 我 们 今后 要 研究 的 问题 。 


更 


52 


HH 


89 卷 第 6 期 信息 技术 快报 Vol.9 No.6 
Information Technology Letter Nov. 2011 


参考 文献 : 


[1] The International Exascale Software Project. http://www.exascale.org. 
[2] Top 500 supercomputing sites. http://www.top500.org. Last accessed February 2011. 


[3] Z. Chen and J. Dongarra. Algorithm-based checkpoint-free fault tolerance for parallel matrix 
computations on volatile resources. In Proceedings of the 20st IEEE International Parallel and 
Distributed Processing Symposium, page 76, 2006. 


[4] Z. Chen and J. Dongarra. Algorithm-based fault tolerance for fail-stop failures. IEEE Transactions on 
Parallel and Distributed Systems, 19(12), December 2008. 


[5] Z. Chen, G. Fagg, E. Gabriel, J. Langou, T. Angskun, G. Bosilca, and J. Dongarra. Building fault 
survivable mpi programs with ft-mpi using diskless checkpointing. In Proceedings for ACM 
SIGPLAN Symposium on Principles and Practice of Parallel Programming, pages 213—223, 2005. 


[6] HPL benchmark sites. http://www.netlib.org/benchmark/hpl. 


[7] K. H. Huang and J. A. Abraham. Algorithm-based fault tolerance for matrix operations. IEEE 
Transactions on Computers, C-33(6):518—528, June 1984. 


[8] | B. Schroeder and G. A. Gibson. Understanding failures in petascale computers. Journal of Physics: 
Conference Series, 78, 2007. 


[9] | MPI-Forum fault-tolerance working group. https://svn.mpi-forum.org/trac/mpi-forum- 
web/wiki/ft/run through users guide. . 


[10] Franck Cappello. Fault Tolerance in Petascale/ Exascale Systems: Current Knowledge, Challenges 
and Research Opportunities. International Journal of High Performance Computing Applications, 
23:212-226, August 2009 


[11] G. Gibson, B. Schroeder, and J. Digney. Failure tolerance in petascale computers. CTWatchQuarterly, 
3(4), November 2007. 


[12] G. Gibson, Reflections on Failure in Post-Terascale Parallel Computing, Keynote at Int. Conf. on 
Parallel Processing, Xi' An China, 2007. 


[13] The computer failure data repository sites. http://cfdr.usenix.org. 


[14] J. S. Plank, K. Li, and M. A. Puening. Diskless checkpointing. IEEE Trans. Parallel Distrib. Syst., 
9(10):972—986, 1998. 


[15] D. Hakkarinen and Z. Chen. Algorithmic Cholesky factorization fault recovery. In Proceedings of the 
24th IEEE International Parallel and Distributed Processing Symposium, Atlanta, GA, USA, April 
2010. 


[16] T. Davies, C. Karlsson, H. Liu, and Z. Chen. Algorithm-based recovery for HPL. In Proceedings of 
the 16th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, pages 
303-304, 2011. 


[17] Z. Chen and J. Dongarra. Highly scalable self-healing algorithms for high performance scientific 
computing. IEEE Transactions on Computers, July 2009. 


[18] Zizhong Chen. Algorithm-based recovery for iterative methods without checkpointing. Proceedings 
of the 20th ACM International Symposium on High-Performance Parallel and Distributed 
Computing, June 2011. 


作者 简介 : 
E 窒 : 体系 结构 国家 重点 实验 室 、 硕 士 研究 生 
姚 二 林 : 体系 结构 国家 重点 实验 室 、 助 理 研究 员 
陈 明 宇 : ”体系 结构 国家 重点 实验 室 、 研 究 员 cmy@ict.ac.cn 
谭 光 明 : ”体系 结构 国家 重点 实验 室 、 副 研究 


Xx 


53 


